Restless multi-armed bandits (RMABs) extend multi-armed bandits to allow for stateful arms, where the state of each arm evolves restlessly with different transitions depending on whether that arm is pulled. Solving RMABs requires information on transition dynamics, which are often unknown upfront. To plan in RMAB settings with unknown transitions, we propose the first online learning algorithm based on the Whittle index policy, using an upper confidence bound (UCB) approach to learn transition dynamics. Specifically, we estimate confidence bounds of the transition probabilities and formulate a bilinear program to compute optimistic Whittle indices using these estimates. Our algorithm, UCWhittle, achieves sublinear $O(H \sqrt{T \log T})$ frequentist regret to solve RMABs with unknown transitions in $T$ episodes with a constant horizon $H$. Empirically, we demonstrate that UCWhittle leverages the structure of RMABs and the Whittle index policy solution to achieve better performance than existing online learning baselines across three domains, including one constructed via sampling from a real-world maternal and childcare dataset.
translated by 谷歌翻译
每年有超过500万五岁以下的儿童死于大部分可预防或可治疗的医疗状况,而在疫苗接种率低的欠发达国家中,死亡人数大部分大部分发生。联合国可持续发展目标之一(SDG 3)旨在结束五岁以下的新生儿和儿童的可预防死亡。我们专注于尼日利亚,在尼日利亚,婴儿死亡率令人震惊。我们与尼日利亚的大型非营利组织Helpmum合作设计和优化了不确定性下的异质健康干预措施的分配,以增加疫苗接种的吸收,这是尼日利亚的首次此类合作。我们的框架,顾问:AI驱动的疫苗接种干预优化器基于整数线性程序,该计划旨在最大程度地提高成功疫苗接种的累积概率。我们的优化公式在实践中是棘手的。我们提出了一种启发式方法,使我们能够解决现实世界中用例的问题。我们还为启发式方法提出了理论界限。最后,我们表明,通过实验评估,所提出的方法在疫苗接种方面优于基线方法。 Helpmum目前正在计划基于我们在最大的尼日利亚城市部署的方法,这将是该国AI驱动的疫苗接种吸收计划的首次部署,并希望为其他数据驱动计划铺平道路改善尼日利亚的健康状况。
translated by 谷歌翻译
以决策为中心的学习(DFL)是为下游优化任务量身定制预测模型的范式,该任务使用其预测以更好地执行该特定任务。与DFL相关的主要技术挑战是,它需要能够通过优化问题进行区分,这由于不连续的解决方案和其他挑战很难。过去的工作主要通过手工制作特定于任务的替代物来解决这个问题,这些替代品可以在区分时提供信息丰富的梯度。但是,需要为每个新任务进行手工替代的需要限制了DFL的可用性。此外,通常无法保证产生的替代物的凸度,因此,训练使用它们的预测模型会导致局部优势较低。在本文中,我们完全消除了代孕,而是学习捕获特定于任务信息的损失功能。据我们所知,我们的方法是第一种完全替代以决策为中心学习的优化组成部分,自动学习的损失。我们的方法(a)仅需要访问可以解决优化问题并因此可以推广的黑盒甲骨文,并且(b)可以通过构造传播,因此可以轻松地优化。我们对文献中三个资源分配问题进行评估,发现我们的方法在没有考虑到所有三个领域的任务结构,甚至是文献中手工制作的代理人的情况下都优于学习的方法。
translated by 谷歌翻译
本文研究了不知所措的多臂匪徒(RMAB)问题,该问题具有未知的手臂过渡动力学,但具有已知的相关手臂特征。目的是学习一个模型,以预测给定功能的过渡动态,在这种功能下,使用预测的过渡解决了RMAB问题。但是,先前的工作通常通过最大化预测精度而不是最终的RMAB解决方案质量来学习模型,从而在培训和评估目标之间导致不匹配。为了解决这一缺点,我们提出了一种新颖的方法,用于在RMAB中以决策为中心的学习,该方法直接训练预测模型,以最大程度地提高Whittle索引解决方案质量。我们提出了三个关键贡献:(i)我们建立了Whittle Index政策以支持决策的学习的不同; (ii)我们在顺序问题中显着提高了以前以决策为中心的学习方法的可伸缩性; (iii)我们将算法应用于现实世界中的母婴健康领域的服务通话计划问题。我们的算法是第一个在RMAB中以决策为中心的学习,该学习范围扩展到大型现实世界中的问题。 \ end {摘要}
translated by 谷歌翻译
我们在\ textit {躁动不安的多臂土匪}(rmabs)中引入了鲁棒性,这是一个流行的模型,用于在独立随机过程(臂)之间进行约束资源分配。几乎所有RMAB技术都假设随机动力学是精确的。但是,在许多实际设置中,动态是用显着的\ emph {不确定性}估算的,例如,通过历史数据,如果被忽略,这可能会导致不良结果。为了解决这个问题,我们开发了一种算法来计算Minimax遗憾 - RMAB的强大政策。我们的方法使用双oracle框架(\ textit {agent}和\ textit {nature}),通常用于单过程强大的计划,但需要大量的新技术来适应RMAB的组合性质。具体而言,我们设计了深入的强化学习(RL)算法DDLPO,该算法通过学习辅助机构“ $ \ lambda $ -network”来应对组合挑战,并与每手臂的策略网络串联,大大降低了样本复杂性,并确保了融合。普遍关注的DDLPO实现了我们的奖励最大化代理Oracle。然后,我们通过将其作为策略优化器和对抗性性质之间的多代理RL问题提出来解决具有挑战性的遗憾最大化自然甲骨文,这是一个非平稳的RL挑战。这种表述具有普遍的兴趣 - 我们通过与共同的评论家创建DDLPO的多代理扩展来解决RMAB。我们显示我们的方法在三个实验域中效果很好。
translated by 谷歌翻译
在预测 - 优化框架中,目的是训练预测模型,从环境特征映射到优化问题的参数,这使得当优化被求解时最大化判定质量。最近的决定学习的工作表明,与依赖于用于评估预测质量的中间损耗功能相比,嵌入训练管道中的优化问题可以提高判定质量,并帮助更好地提高未经任务的任务。我们研究了通过增强学习解决的顺序决策问题(制定为MDP)的上下文中的预测 - 优化框架。特别是,我们是给予的环境特征和来自训练MDP的一组轨迹,我们用于训练推广的预测模型,无需轨迹。在将决策的学习应用于MDPS上,出现了两个重要的计算挑战:(i)大状态和行动空间使现有技术可行,以区分通过MDP问题,并且(ii)是由神经的参数化的高维策略空间网络,通过昂贵的政策进行区分。我们通过采样可释放的无偏见的衍生物来解决第一挑战,以通过最优条件近似和分辨,并通过使用基于高维样本的衍生物的低秩近似来分辨。我们在缺少参数的三个不同MDP问题上实现了基于Bellman的基于政策梯度的决定学习,并表明,决定的学习在概括任务中表现更好。
translated by 谷歌翻译
随着AI和多基因系统研究的成熟,我们有一个巨大的机会将这些进步引导到解决复杂的社会问题。为了追求AI对社会影响的目标,我们作为AI研究人员必须超越计算方法的改进。重要的是要走出现场以展示社会影响。为此,我们专注于低资源社区中的公共安全和保障,野生动植物保护和公共卫生的问题,以及在多种系统中的研究进展,以应对一个关键的跨切割挑战:如何有效部署我们的有限干预措施这些问题域中的资源。我们介绍了来自世界各地部署的案例研究,以及我们希望对对AI感兴趣的社会影响感兴趣的研究人员的经验教训。在推动这项研究议程时,我们认为AI确实可以在与社会不公和改善社会作斗争中发挥重要作用。
translated by 谷歌翻译
增量学习是一种范式,可以通过流数据大规模构建模型构建和更新。对于端到端的自动语音识别(ASR)任务,缺乏人类注释的标签,以及需要保留模型建设政策的隐私政策,这使其成为艰巨的挑战。受这些挑战的激励,在本文中,我们使用基于云的框架为生产系统展示了从隐私保存自动语音识别(ILASR)的增量学习中的见解。我们的意思是,通过保留隐私性,对没有人类注释的短暂数据使用。该系统是用于增量/持续学习的生产LevelAsASR模型的一步,该模型提供了接近实时测试床,以在云中进行端到端ASR实验,同时遵守保留隐私的政策。我们表明,即使在没有人类注释的标签的情况下,拟议的系统也可以在六个月的新时间内显着改善生产模型(3%),而在增量学习中,较弱的监督和大批量大小。在新时期,这种改进比测试集的新单词和短语相比为20%。我们在ASR的同时进一步探讨了拥有有效的教师模型和使用大批量大小的实用性的同时,以保护隐私的增量方式展示了模型构建的有效性。
translated by 谷歌翻译
从传统上讲,放射科医生准备诊断笔记,并与转录师分享。然后,抄写员准备了指参考票据的初步格式报告,最后,放射科医生审查报告,纠正错误并签字。该工作流程在报告中导致重大延迟和错误。在当前的研究工作中,我们专注于NLP技术(例如信息提取(IE)和域特异性知识图(KG))的应用,以自动从放射科医生的命令中生成放射学报告。本文通过从现有的自由文本放射学报告的大型语料库中提取信息来重点介绍每个器官的KG构造。我们开发了一种信息提取管道,将基于规则的,基于模式和基于词典的技术与词汇语义特征相结合,以提取实体和关系。可以从kgs访问简化的丢失信息,以产生病理描述,并因此是放射学报告。使用语义相似性指标评估了生成的病理描​​述,该指标与金标准病理描述显示了97%的相似性。另外,我们的分析表明,我们的IE模块的性能要比放射学域的开放式工具更好。此外,我们还包括放射科医生的手动定性分析,该分析表明80-85%的生成报告是正确编写的,其余部分是正确的。
translated by 谷歌翻译
每年大约有6,800次自然灾害发生,由于气候变化的影响,这一令人震惊的数量继续增长。改善自然灾害反应的有效方法包括执行变更检测,地图对准和视觉辅助导航,以允许节省时间的救生援助。当前的软件仅在地面高于地面九十度的NADIR图像上发挥最佳功能。无法概括倾斜的图像增加了计算图像的地心姿势的需求,这是其在重力方面的空间取向。这项深入学习调查提出了三个卷积模型,以使用5,923个Nadir和斜红,绿色和蓝色(RGB)卫星图像预测地心的姿势。第一个模型是一种自动编码器,将256 x 256 x 3图像凝结到32 x 32 x 16潜在空间表示形式,证明了从数据中学习有用功能的能力。第二个模型是U-NET完全卷积网络,其SKIP连接用于预测每个图像的相应像素级掩码。该模型在测试数据上实现了0.335米的中值绝对偏差为0.335米,R2为0.865。之后,将高程面膜与RGB图像串联以形成馈入第三个模型的四通道输入,该输入预测了每个图像的旋转角度和比例,即其地理为中心姿势的组件。这种深度卷积神经网络在测试数据上达到了0.943的R2,大大优于研究人员设计的先前模型。本研究中建立的高准确软件有助于制定和导航程序,以加速救灾并挽救人类的生命。
translated by 谷歌翻译